查看原文
其他

利用Python7步学习机器学习

Matthew Mayo 半山里人 2024-05-31

声明:本文转自网络,原文地址: http://www.kdnuggets.com/2015/11/seven-steps-machine-learning-python.html。

个人感觉本文对机器学习很有帮助,因此将本文内容记录下来,文中提供了大量的免费学习资源。


Step1:基本 Python 技能

首先要安装 Python 。这里建议安装  Anaconda。Anaconda 是一个可在 Linux , OSX , Windows 上运行的 Python 实现工具,拥有所需的机器学习 packages ,包括 numpy,scikit-learn,matplotlib。它还包含iPython Notebook 。

如果没有编程知识,建议你阅读这本免费电子书,然后再接触其他学习材料:

▪ Python The Hard Way http://learnpythonthehardway.org/book/  作者Zed A. Shaw

如果你之前有编程知识,但不是Python的,又或者你的Python水平很基础,推荐下列一种或几种教程:

▪  Google Developers Python Course ((推荐给视觉型学习者)

 https://www.youtube.com/playlist?list=PLfZeRfzhgQzTMgwFVezQbnpc1ck0I6CQl

▪  An Introduction to Python for Scientific Computing (from UCSB Engineering) 作者 M. Scott Shell (一个很好的 Python 科学计算简介,60 页)  

http://www.engr.ucsb.edu/~shell/che210d/python.pdf

对于想要速成课程的人,这里有:

▪  Learn X in Y Minutes (X = Python)

http://learnxinyminutes.com/docs/python/

如果你是个经验丰富的 Python 程序员,可以跳过这一步。

 

Step2:ML基础技能

吴恩达在 Coursera 的课程饱受赞誉。但我的建议是去看看一名以前的学生做的笔记。略过那些针对 Octave(一个与 Python 无关的,类 Matlab 语言)的内容。需要注意,这些不是“官方”的笔记,虽然看起来的确抓住了吴恩达课程材料的相关内容。如果你有时间,可以自己去 Coursera 完成这个课程 :Andrew Ng’s Machine Learning course 。https://www.coursera.org/learn/machine-learning


▪  非官方课程笔记链接  http://www.holehouse.org/mlclass/

除了吴恩达的课程以外,下面的课程视频,对学习者非常友好:

▪  Tom Mitchell Machine Learning Lectures

http://www.cs.cmu.edu/~ninamf/courses/601sp15/lectures.shtml

比较好的策略是向前推进,去做下面的练习,需要的时候再查阅笔记和视频。比如,你要做一个回归模型,就可以去查阅吴恩达课程有关回归的笔记以及/或者 Mitchell 的视频。

 

Step3:科学计算 Python packages

Python 有很多为机器学习提供便利的开源库。通常它们被称为 Python 科学库,用以执行基本的数据科学任务:

▪  numpy – 主要用于 N 维数组

▪  pandas – Python 数据分析库,包含 dataframe 等结构

▪  matplotlib – 2D 绘图库,产出质量足以进行印刷的图

▪  scikit-learn – 数据分析、数据挖掘任务使用的机器学习算法

学习以上这些内容可以使用:

▪  Scipy Lecture Notes 作者 Gaël Varoquaux, Emmanuelle Gouillart, Olav Vahtras

http://www.scipy-lectures.org/

下面这个 pandas 教程也不错,贴近主题:

▪  10 Minutes to Pandas  http://pandas.pydata.org/pandas-docs/stable/10min.html

后面的教程会看到packages ,比如Seaborn (一个基于 matplotlib 的可视化库)。

 

Step4:开始用 Python 进行ML

用scikit-learn,实现机器学习算法。

 

scikit-learn 算法选择图

下面许多教程和练习都基于交互式环境 iPython (Jupyter) Notebook 。

▪  iPython Notebook 概览 斯坦福大学   http://cs231n.github.io/ipython-tutorial/

下面是 scikit-learn 的入门教程。在进行下一个步骤之前,推荐做完下列全部教程。

对于 scikit-learn 的整体介绍,它是 Python 最常用的通用机器学习库,包含knn最近邻算法:

▪  An Introduction to scikit-learn 作者 Jake VanderPlas

http://nbviewer.ipython.org/github/donnemartin/data-science-ipython-notebooks/blob/master/scikit-learn/scikit-learn-intro.ipynb

更深入更宽泛的介绍,包含一个新手项目,从头到尾使用一个著名的数据集:

▪  Example Machine Learning Notebook 作者 Randal Olson

http://nbviewer.ipython.org/github/rhiever/Data-Analysis-and-Machine-Learning-Projects/blob/master/example-data-science-notebook/Example%20Machine%20Learning%20Notebook.ipynb

专注于 scikit-learn 中评估不同模型的策略,涉及训练集/测试集拆分:

▪  Model Evaluation 作者 Kevin Markham

 https://github.com/justmarkham/scikit-learn-videos/blob/master/05_model_evaluation.ipynb

Step5:Python ML主题

在 scikit-learn 打下基础以后,我们可以探索更多有用的常见算法。让我们从最知名的机器学习算法之一,k-means 聚类开始。对于无监督学习问题,k-means 通常简单有效:

▪  k-means Clustering 作者 Jake VanderPlas

https://github.com/jakevdp/sklearn_pycon2015/blob/master/notebooks/04.2-Clustering-KMeans.ipynb

接下来是分类,让我们看看史上最流行的分类方法之一,决策树:

▪  Decision Trees via The Grimm Scientist

http://nbviewer.ipython.org/github/donnemartin/data-science-ipython-notebooks/blob/master/scikit-learn/scikit-learn-linear-reg.ipynb

分类之后,是连续数字变量的预测:

▪  Linear Regression 作者 Jake VanderPlas

通过逻辑斯蒂回归,我们可以用回归解决分类问题:

▪  Logistic Regression 作者 Kevin Markham

http://nbviewer.ipython.org/github/justmarkham/gadsdc1/blob/master/logistic_assignment/kevin_logistic_sklearn.ipynb

 

Step6:Python高级ML

接触过 scikit-learn,现在让我们把注意力转向更高级的内容。首先是支持向量机,一个无需线性的分类器,它依赖复杂的数据转换,把数据投向高维空间。

▪  Support Vector Machines 作者 Jake VanderPlas

https://github.com/jakevdp/sklearn_pycon2015/blob/master/notebooks/03.1-Classification-SVMs.ipynb

接下来是随机森林,一种集成分类器。下面的教程通过 Kaggle Titanic Competition讲解。

▪  Kaggle Titanic Competition (with Random Forests) 作者 Donne Martin

http://nbviewer.ipython.org/github/donnemartin/data-science-ipython-notebooks/blob/master/kaggle/titanic.ipynb

降维是一种减少问题涉及的变量数目的方法。PCA 主成分分析是一种无监督学习降维的特殊形式:

▪  Dimensionality Reduction 作者 Jake VanderPlas

http://nbviewer.ipython.org/github/donnemartin/data-science-ipython-notebooks/blob/master/kaggle/titanic.ipynb

通过使用 Python 和它的机器学习库,我们涵盖了一些最常用最知名的机器学习算法( knn 最近邻,k-means 聚类,支持向量机),了解了一种强有力的集成方法(随机森林),涉及了一些其他机器学习支持方案(降维,模型验证技巧)。在一些基础机器学习的技巧的帮助下,我们开始有了一个渐渐丰富的工具箱。

 

Step7 :Python 深度学习

深度学习基于过去几十年的神经网络研究,但最近几年的发展大大增加了深度神经网络的能力和对于它的兴趣。如果你不熟悉深度学习,KDnuggets 有许多文章,详细介绍最近的进展、成果,以及对这项技术的赞誉。

本文的最后一部分会关注基于两个Python深度学习库的简单应用。对于想了解更多的读者,我推荐下面这本免费在线书:

▪  Neural Networks and Deep Learning 作者 Michael Nielsen

http://neuralnetworksanddeeplearning.com/

Theano  http://deeplearning.net/software/theano/

Theano是我们关注的第一个 Python 深度学习库。根据作者所说:

作为一个 Python 库,Theano 让你可以有效定义、优化、评估包含多维数组的数学表达式。

▪  Theano Deep Learning Tutorial 作者 Colin Raffel

http://nbviewer.ipython.org/github/craffel/theano-tutorial/blob/master/Theano%20Tutorial.ipynb

Caffe  http://caffe.berkeleyvision.org/

我们关注的另一个库是 Caffe。根据它的作者所说:

Caffe 是一个深度学习框架。开发过程中时刻考虑着表达式、速度、模型。 它是由 Berkeley Vision and Learning Center (BVLC) 和社区贡献者共同开发的。

这个教程是本文的压轴。尽管上面列举了一些有趣的案例,没有那个比得上下面这个:用 Caffe 实现 Google 的  #DeepDream。

▪  Dreaming Deep with Caffe via Google’s GitHub

https://github.com/google/deepdream/blob/master/dream.ipynb

遵循这七个步骤,你无疑会对于这个领域拥有足够的熟练度和理解,会使用流行的 Python 库实现许多机器学习算法。


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存